视频和文本之间的跨模式检索因网络上的视频迅速出现而越来越多。通常,视频包含丰富的实例和事件信息,查询文本仅描述了信息的一部分。因此,视频可以对应于多个不同的文本说明和查询。我们将此现象称为``视频文本对应歧义''问题。当前技术主要集中于挖掘视频和文本内容之间的本地或多级对齐(\ textit {e.g。},对实体和动词的动作对象)。这些方法很难通过仅使用一个单个功能来描述视频来减轻视频文本的歧义,这需要同时与多个不同的文本功能匹配。为了解决这个问题,我们提出了一个文本自适应多个视觉原型匹配模型,该模型会自动捕获多个原型,以通过自适应聚合视频令牌功能来描述视频。给定查询文本,相似性由最相似的原型确定,以在视频中找到对应关系,该视频称为文本自适应匹配。为了学习代表视频中丰富信息的多种原型,我们提出了差异损失,以鼓励不同的原型参与视频的不同内容。我们的方法在四个公共视频检索数据集上优于最先进的方法。
translated by 谷歌翻译
在域移位下,跨域几个射击对象检测旨在通过一些注释的目标数据适应目标域中的对象检测器。存在两个重大挑战:(1)高度不足的目标域数据; (2)潜在的过度适应和误导性是由不当放大的目标样本而没有任何限制引起的。为了应对这些挑战,我们提出了一种由两个部分组成的自适应方法。首先,我们提出了一种自适应优化策略,以选择类似于目标样本的增强数据,而不是盲目增加数量。具体而言,我们过滤了增强的候选者,这些候选者在一开始就显着偏离了目标特征分布。其次,为了进一步释放数据限制,我们提出了多级域感知数据增强,以增加增强数据的多样性和合理性,从而利用了跨图像前景 - 背景混合物。实验表明,所提出的方法在多个基准测试中实现了最先进的性能。
translated by 谷歌翻译
模型训练期间常见疾病和稀有疾病之间的数据失衡通常会导致智能诊断系统对常见疾病的预测有偏见。最先进的方法采用了两阶段的学习框架来减轻班级不平衡问题,其中第一阶段的重点是培训一般功能提取器,第二阶段的重点是对课堂的分类器负责人进行微调重新平衡。但是,现有的两阶段方法并不认为不同疾病之间的细粒度属性,通常导致第一阶段对医学图像分类的有效性低于自然图像分类任务。在这项研究中,我们建议将度量学习嵌入到两个阶段框架的第一阶段中,以帮助特征提取器学习提取更具歧视性特征表示。广泛的实验主要在三个医疗图像数据集上表明,所提出的方法始终优于现有的oneStage和两阶段方法,这表明可以将公制学习用作两阶段的插入式插件组件,用于两阶段的良好类粒度差异。图像分类任务。
translated by 谷歌翻译
不平衡的培训数据是医学图像分类的重大挑战。在这项研究中,我们提出了一个新型的渐进式中心三重态(PCCT)框架,以减轻类不平衡问题,尤其是用于诊断稀有疾病的问题,主要是通过仔细设计三重态采样策略和三重态损失形成。具体而言,PCCT框架包括两个连续的阶段。在第一阶段,PCCT通过类平衡的三重损失训练诊断系统,从而使不同类别的分布分布粗糙。在第二阶段,PCCT框架进一步改善了诊断系统,涉及三胞胎损失,从而导致每个类别的分布更紧凑。对于级别平衡的三重态损失,在每个训练迭代中为每个班级平均采样三重态,从而减轻了不平衡的数据问题。对于涉及三胞胎的集体中心损失,每个三重态中的正和负样本被其相应的类中心取代,该中心强制执行靠近类中心的同一类的数据表示。此外,涉及的三胞胎损失涉及的中心损失将扩展到成对的排名损失和四倍体损失,这证明了所提出的框架的概括。广泛的实验支持PCCT框架有效地用于医疗图像分类,并使用不平衡的训练图像。在两个皮肤图像数据集和一个胸部X射线数据集上,建议的方法分别获得了所有类别的平均F1得分86.2、65.2和90.66,以及81.4、63.87和81.92的稀有班级,即可实现最罕见的班级。性能并超越广泛使用的类不平衡问题的方法。
translated by 谷歌翻译
在这份技术报告中,我们将解决方案介绍给以人为中心的时空视频接地任务。我们提出了一个名为stvgformer的简洁有效框架,该框架将时空视觉语言依赖性与静态分支和动态分支建模。静态分支在单个帧中执行交叉模式的理解,并根据框架内视觉提示(如对象出现)学会在空间上定位目标对象。动态分支在多个帧上执行交叉模式理解。它学会了根据动作(如动作)的动态视觉提示来预测目标力矩的开始和结束时间。静态分支和动态分支均设计为跨模式变压器。我们进一步设计了一种新型的静态动力相互作用块,以使静态和动态分支相互传递有用和互补信息,这被证明可以有效地改善对硬病例的预测。我们提出的方法获得了39.6%的VIOU,并在第四人中挑战中获得了HC-STVG曲目的第一名。
translated by 谷歌翻译
脑电图(EEG)的准确自动分析将在很大程度上有助于临床医生有效监测和诊断患有各种脑部疾病的患者。与使用标记的疾病脑电图数据进行监督的学习相比,可以训练模型以分析特定疾病但无法监测以前看不见的状态,仅基于正常脑电图的异常检测才能检测到新EEG中的任何潜在异常。与现有的异常检测策略不同,这些检测策略在模型开发过程中不考虑任何不可用的异常数据的财产,这里提出了一种面向任务的自我监督学习方法,它可以利用可用的正常脑电图和有关异常EEG的专业知识来培训更有效的EEG随后开发异常检测器的特征提取器。此外,具有较大核的特定两个分支卷积神经网络被设计为特征提取器,因此它可以更容易地提取较大规模和小规模的特征,这些特征通常出现在不可用的异常脑电图中。如三个EEG数据集所示,有效设计和训练的功能提取器已证明能够根据正常数据和未来的新EEG提取更好的特征表示,以根据正常数据和未来的异常检测来开发异常检测器。该代码可在https://github.com/irining/eeg-ad上找到。
translated by 谷歌翻译
弱监督的动作本地化旨在仅使用视频级别的分类标签在给定的视频中进行本地化和分类。因此,现有的弱监督行动定位方法的关键问题是从弱注释中对精确预测的有限监督。在这项工作中,我们提出了视频级别和摘要级别的举止,即等级的层次策略,即等级监督和等级一致性挖掘,以最大程度地利用给定的注释和预测一致性。为此,提出了一个分层采矿网络(HIM-NET)。具体而言,它在两种谷物中挖掘了分类的层次监督:一个是通过多个实例学习捕获的地面真理类别的视频级别存在;另一个是从互补标签的角度来看,每个负标签类别的摘要级别不存在,这是通过我们提出的互补标签学习优化的。至于层次结构的一致性,HIM-NET探讨了视频级别的共同作用具有相似性和摘要级别的前景背景对立,以进行判别表示学习和一致的前景背景分离。具体而言,预测差异被视为不确定性,可以选择对拟议的前后背景协作学习的高共识。全面的实验结果表明,HIM-NET优于Thumos14和ActivityNet1.3数据集的现有方法,该数据集具有较大的利润率,通过层次挖掘监督和一致性。代码将在GitHub上提供。
translated by 谷歌翻译
尖峰神经网络是低功率环境的有效计算模型。基于SPIKE的BP算法和ANN-TO-SNN(ANN2SNN)转换是SNN培训的成功技术。然而,尖峰碱BP训练速度很慢,需要大量的记忆成本。尽管Ann2NN提供了一种培训SNN的低成本方式,但它需要许多推理步骤才能模仿训练有素的ANN以表现良好。在本文中,我们提出了一个snn-to-ang(SNN2ANN)框架,以快速和记忆的方式训练SNN。 SNN2ANN由2个组成部分组成:a)ANN和SNN和B)尖峰映射单元之间的重量共享体系结构。首先,该体系结构在ANN分支上训练重量共享参数,从而快速训练和SNN的记忆成本较低。其次,尖峰映射单元确保ANN的激活值是尖峰特征。结果,可以通过训练ANN分支来优化SNN的分类误差。此外,我们设计了一种自适应阈值调整(ATA)算法来解决嘈杂的尖峰问题。实验结果表明,我们的基于SNN2ANN的模型在基准数据集(CIFAR10,CIFAR100和TININE-IMAGENET)上表现良好。此外,SNN2ANN可以在0.625倍的时间步长,0.377倍训练时间,0.27倍GPU内存成本以及基于SPIKE的BP模型的0.33倍尖峰活动下实现可比精度。
translated by 谷歌翻译
作者识别(作品ID)是生物识别学中的重要领域,旨在通过手写来识别作家。现有作家ID研究中的识别需要完整的文档或文本,限制了RETICATIC应用程序中WRITER-ID的可扩展性和灵活性。为了使Writer-id更实用(例如,在移动设备上),我们专注于一个新的问题,字母级在线编写器ID,这只需要几个书面字母作为识别线索的轨迹。与基于文档的编写器ID不同,具有丰富的上下文的识别,因此只有几个单个字母识别作者的线索更少。主要挑战是,一个人经常不时地用不同风格写一封信。我们将此问题称为在线写字风格(VAR-O-STYLES)的方差。我们以捕获标准化 - 聚合方式解决了VOR-O样式:首先,我们通过精心设计的多分支编码器提取字母轨迹的不同功能,以捕获不同的在线写入样式。然后,我们通过新颖的归一化层将所有这些样式功能转换为参考样式特征域。最后,我们通过分层关注池(HAP)聚合标准化特征,其使具有多个写入样式的所有输入字母融合到紧凑的特征向量中。此外,我们还贡献了一个大型字母级在线编写器识别数据集(LERID)进行评估。广泛的比较实验证明了所提出的框架的有效性。
translated by 谷歌翻译
Masked image modeling (MIM) performs strongly in pre-training large vision Transformers (ViTs). However, small models that are critical for real-world applications cannot or only marginally benefit from this pre-training approach. In this paper, we explore distillation techniques to transfer the success of large MIM-based pre-trained models to smaller ones. We systematically study different options in the distillation framework, including distilling targets, losses, input, network regularization, sequential distillation, etc, revealing that: 1) Distilling token relations is more effective than CLS token- and feature-based distillation; 2) An intermediate layer of the teacher network as target perform better than that using the last layer when the depth of the student mismatches that of the teacher; 3) Weak regularization is preferred; etc. With these findings, we achieve significant fine-tuning accuracy improvements over the scratch MIM pre-training on ImageNet-1K classification, using all the ViT-Tiny, ViT-Small, and ViT-base models, with +4.2%/+2.4%/+1.4% gains, respectively. Our TinyMIM model of base size achieves 52.2 mIoU in AE20K semantic segmentation, which is +4.1 higher than the MAE baseline. Our TinyMIM model of tiny size achieves 79.6% top-1 accuracy on ImageNet-1K image classification, which sets a new record for small vision models of the same size and computation budget. This strong performance suggests an alternative way for developing small vision Transformer models, that is, by exploring better training methods rather than introducing inductive biases into architectures as in most previous works. Code is available at https://github.com/OliverRensu/TinyMIM.
translated by 谷歌翻译